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蛋白 质 结构 预测 : 梦想 与 现实 
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摘要 ， 生物 信息 学 的 贡献 可 以 从 两 个 层面 来 衡量 ， 一 方面 是 对 生物 学 的 贡献 ， 即 能 和 否 以 数理 的 手段 辅助 生 
物 学 家 (或 者 独立 地 ) 做 出 新 的 生物 学 发 现 (discovery); 另 一 方面 则 是 对 计算 机 科学 的 贡献 ， 即 实际 问 
题 是 算法 研究 的 推动 力 和 源 录 ， 我 们 能 和 否 在 解决 实际 问题 的 过 程 中 ， 检 验 已 有 算法 ， 并 开发 新 的 算法 
(algorithm) 。 本 文 的 目的 即 是 以 蛋白 质 结 构 预 测 的 FALCON 方法 为 样本 ， 对 上 述 两 个 层面 的 贡献 做 一 曾 
述 。 简 短 地 说 ， 从 生物 学 发 现 角 度 来 讲 ，FALCON 的 结果 为 “蛋白质 结构 构象 数目 是 有 限 的 ”这 一 论断 提供 
了 定量 的 支持 ;从 算法 的 角度 讲 ，FALCON 实际 上 是 一 种 新 的 优化 框架 ，FALCON 能 够 大 大 降低 搜索 空间 六 
大 小 ， 而 经 典 的 Monte Carlo 与 Local search 始终 维持 一 个 相对 较 大 的 搜索 空间 。 实 验 结果 表明 这 种 降低 
搜索 空间 大 小 的 技术 能 够 有 效 地 提高 搜索 成 功 的 可 能 性 。 
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(O 蛋白 质 是 由 肽 键 连接 的 一 条 氨基 酸 长 链 ， 只 有 在 折合 成 特定 的 形状 之 后 方 能 产生 特定 
这 的 生物 学 功能 。 比 如 ， 疯 牛 病 的 病因 即 是 脑 部 一 种 蛋白 质 及 蛋白 (Prion Protein，PrP) 结 构 发 
生变 异 : 由 正常 的 水 溶性 a 螺旋 结构 ， 变 异 为 不 溶 于 水 的 B 片 状 结构 ， 从 而 沉积 在 脑 组 织 
中 ， 引 起 神经 细胞 退行 性 改变 ， 造 成 海 绢 状 脑病 。 因 此 ， 了 解 蛋白 质 的 结构 对 于 认识 蛋 
质 的 功能 有 着 重要 意义 。 


使 用 生物 学 手段 测定 蛋白 质 三 级 结构 的 方法 主要 包括 X- 品 体 衍 射 实验 和 核磁 共振 
Sy CNMR 等， 但 以 上 两 种 蛋白 质 结构 测定 方法 的 速度 远 远 跟 不 上 DNA 测序 以 及 基因 预测 的 
下 速度 ， 因 而 无 法 满足 和 蛋白质 组 规模 上 〈proteome-scale) 结构 预测 的 需求 。 比 如 ， 使 用 核磁 
一 共振 方法 测定 一 个 蛋白 质 通常 需 要 15 万 美元 以 及 半年 的 时 间 。 因 此 ， 人 们 希望 使 用 计算 进 
2< 行 预 测 来 填补 结构 测定 速度 与 序列 测定 速度 之 间 的 鸿沟 。 此 外 ， 预 测 方法 的 进展 也 有 助 于 
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三 对 蛋白质 折 半 机 理 的 认识 ， 从 而 具有 重要 的 理论 价值 。 更 进一步 ， 结 构 预 测 对 于 新 和 蛋白质 
r= 设计 有 着 根本 性 的 意义 --- 要 设计 出 共有 某 种 特定 结构 的 新 蛋白 质 ， 结 构 预 测 无 疑 是 缩短 设 
rr 计 过 程 的 一 件 利器 。 从 这 三 个 角度 来 说 ， 从 序列 出 发 准确 地 预测 蛋白 质 结构 已 成 为 人 们 的 


那么 ， 使 用 计算 的 方法 从 序列 预测 结构 是 可 行 的 吗 ? 


1965 年 ， 安 芬 森 (Anfinsen ) 基于 还 原 变性 的 牛 胰 RNase! 在 不 需 其 他 任何 物质 帮助 下 ， 
仅 通过 去 除 变性 剂 和 还 原 剂 就 使 其 恢复 天 然 结构 的 实验 结果 ， 提 出 了 “多 肽 链 的 氨基 酸 序 列 
包含 了 形成 其 热力 学 上 稳定 的 天 然 构象 所 必需 的 全 部 信息 ”的 “ 自 组 装 学 说 "”， 随 后 这 个 学 说 
又 得 到 一 些 补充 。 这 些 学 说 表明 : 氨基 酸 序列 确定 其 空间 构象 ， 从 而 为 蛋白 质 结 构 预测 提 
供 了 可 行 性 。 


为 客观 、 公 正 地 衡量 各 种 预测 方法 的 性 能 ， 自 1994 年 开始 ， 莫 尔 特 〈John Moult) 等 
人 组 织 了 一 系列 蛋白 质 结构 预 测 技术 评估 (Critical Assessment of Techniques for Protein 
Structure Prediction，CASP) 竞 赛 。 和 Livebench 等 其 他 测试 方法 不 同 ，CASP 比赛 采用 了 盲 
试 (Blind Test) 方法 ， 即 在 每 次 比赛 中 使 用 的 目标 蛋白质 的 结构 是 未 测定 的 ， 或 者 即使 测 


一 


-种 核糖 核酸 内 切 酶 


11 


和 蛋白质 结 构 预 测 ， 梦 想 与 现实 


定 但 是 还 未 公开 发 布 的 。CASP 比赛 在 2006 年 度 CASP-7 比赛 中 共 使 用 了 超过 100 个 测试 
用 例 ， 为 算法 设计 和 检验 提供 了 一 个 比较 公平 的 评测 标准 数据 集 。 
值得 指出 的 是 ，CASP 比赛 的 目的 是 促进 新 思路 的 产生 ， 而 不 是 简单 地 评价 现 有 的 各 
种 方法 、 实 现 的 好 坏 等 等 。 这 也 许 是 我 们 看 待 各 种 国际 比赛 的 最 佳 态 度 。 
经 典 的 和 蛋白质 结 构 的 预测 方法 可 以 分 为 三 类 ， 即 : 同 源 建 模 方法 (Homology 
Modeling) ， 穿 线 法 (Threading) 和 从 头 预 测 〈ab initio ) 方法 。 
同 源 建 模 方 法 的 核心 思想 是 通过 目标 序列 的 同 源 蛋 白质 来 推定 其 三 维 结构 。 其 关键 步 
又 是 序列 -序列 (sequence-sequence) 相似 性 比较 ， 以 推断 重 白质 之 间 的 同 源 关 系 。 对 于 相似 
度 比较 高 的 情况 ， 同 源 建 模 方 法 能 够 以 很 高 的 精度 预测 出 和 蛋白质 三 级 结构 :而 在 序列 相似 
度 较 小 的 情况 下 则 往往 失效 。 


穿线 法 的 核心 思想 是 寻找 和 目标 序列 没有 显著 性 同 源 关 系 、 但 是 具有 同一 结构 折 登 


(Fold) 类 型 的 蛋白 质 。 其 关键 步骤 是 序列 -结构 比较 计算 ， 以 获得 最 可 能 的 比 对 
Calignment) 。 和 同 源 建 模 方法 相 比 ， 穿 线 法 的 主要 不 同 是 充分 利用 了 模板 库 中 的 结构 信 
~ 息 ， 比 如 和 氨基酸 之 间 的 相互 作用 等 。 因 此 ， 穿 线 法 能 够 得 到 比 同 源 建 模 更 精确 的 预测 结 
LO 果 。 

从 头 预 测 方法 的 核心 思想 是 从 第 一 性 原理 出 发 ， 寻 找 目标 蛋白 质 能 量 最 小 的 构象 。 
SS IBM 的 超级 计算 机 BlueGene-L 就 是 为 了 实现 这 个 模拟 过 程 而 研制 开发 的 ， 但 是 目前 只 能 计 


算 几 个 氨基 酸 的 折 又 过程， 采用 蒙特 卡 罗 (Monte Carlo) 策略 ， 段 (Duan) 和 科 尔 曼 
(Kollman) 在 256 个 处 理 器 的 克 雷 (Cray) 机 器 上 计算 了 两 个 月 ， 仅 仅 模 拟 了 36 个 氨基 酸 
的 一 点 秒 的 真实 折 闭 过 程 。 


经 过 多 年 的 努力 ， 现 在 对 于 序列 相似 度 大 于 30% 的 同 源 蛋白 质 来 说 ， 结 构 预 测 问 是 
以 认为 已 经 解决 ， 穿 线 法 识别 折 受 类 型 的 准确 率 大 概 为 23; 而 从 头 预测 方法 还 需要 大 
努力 和 新 思路 才能 取得 突破 。 


近年 来 ， 从 头 预 测 方法 得 到 越 来 越 多 的 重视 ， 其 原因 在 于 和 同 源 建 模 以 及 穿线 法 相 比 
较 而 言 ， 从 头 预测 方法 具有 其 独特 的 优势 ， 比 如 有 助 于 揭示 和 蛋白质 折 膨 机 理 ， 能 够 在 同 源 
蛋白 质 未 知 的 情况 下 预测 结构 等 。 但 是 该 方法 也 存在 一 些 不 足 ， 比 如 研究 人 员 通 常 使 用 简 
单 枚 举 的 “离散 ”方式 来 描述 局 部 结构 的 多 个 候选 构象 ， 而 不 是 刻画 “连续 ”构象 空间 的 
分 布 ， 造 成 每 个 候选 虽然 和 真实 结构 很 相似 ， 但 是 仍然 存在 较 大 的 误差 ， 而且 这 种 误差 无 
法 消除 。 从 头 预测 遇 到 这 种 局 部 结构 的 离散 性 往往 无 能 为 力 ， 此 外 搜索 空间 过 大 也 是 一 个 
问题 ， 直 接 导致 搜索 到 真实 结构 的 概率 大 大 降低 。 上 述 不 是 之 处 造成 了 从 头 预 测 方法 在 实 
际 应 用 中 的 困难 。 针 对 这 些 不 足 ， 我 们 认为 有 必要 设计 新 的 算法 框架 。 
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作为 前 驱 性 工作 ， 李 帅 诚 、 卜 东 波 、 许 锦 波 、 李 明 提 出 了 一 种 基于 Fragment-HMM 
的 新 预测 算法 FALCON”， 能 够 将 蛋白 质 结构 构象 空间 大 小 从 ROSETTA 方法 的 O(200") 降 
低 至 O(.66")， 从 而 更 接近 于 迪 尔 (K. Dill) 的 估计 值 O4.6") 。 


我 们 的 方法 的 生物 学 依据 是 : 梨 白 质 结构 是 由 近 程 相互 作用 和 远程 相互 作用 共同 作用 
的 结果 ， 和 蛋白 质 局 部 结构 主要 受 近 程 相互 作用 影响 ， 而 远程 相互 作用 则 影响 各 个 局 部 结构 
的 摆 放 位 置 ， 使 大 能 最 小 ， 从 而 产生 稳定 结构 。 因 此 ， 我 们 就 要 解决 以 下 两 个 问题 : 


Fragmentation hidden Markov model 针对 片段 的 隐 马 尔 科 夫 模型 
卜 东 波 于 加 拿 大 滑铁卢 大 学 访问 期 间 与 李 帅 诚 、 许 锦 波 、 李 明教 授 共同 完成 。 
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1. 如何 刻 画 局 部 的 结构 倾向 性 ? 


信息 技术 


快报 Vol.8 No.1 


Information Technology Letter Jan. 2010 


2. ”如 何 刻画 远程 相互 作用 导致 的 相关 性 
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我 们 开发 的 FALCON 算法 采取 了 如 下 技术 : 


1. ”局 部 结构 (Local Structure〉 的 预测 算法 : 


我 们 初步 实现 了 上 述 算法 ， 
验 结果 。 在 实验 中 ， 我 们 从 PDB“ 模板 库 
半 作 为 测试 集合 。 初 步 实验 
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发 了 软件 包 FRazor (Fragment Razor)， 并 获得 一 些 初步 实 
PpP 随 机 抽取 了 9338 个 片断 ， 一 半 作 为 训练 集 ， 一 


结果 表明 : 如 果 设 置 局 部 结构 候选 集合 规模 为 25， 则 我 们 的 整 


数 线 性 规划 模型 对 于 Alpha 螺旋 (Alpha helixz) 区 域 的 命中 率 是 98.6%，P 链 (Beta Strand ) 
区 域 是 89.6%， 环 (Loop) 区 域 是 78.1%。 这 比 ROSETTA 方法 的 结果 有 较 大 的 改进 。 如 果 
设置 候选 集合 的 规模 为 40， 则 命中 率 分 别 为 9%，92.9%， 和 82.4%。 这 表明 这 种 整数 线性 


规划 模型 能 够 有 效 地 预测 出 


局 部 结构 。 


2. ”二 面 角 分 布 刻画 与 逐步 求 精 : 


我 们 初步 实现 了 和 迭代 策略 ， 实 验 结果 初步 表明 其 有 效 性 。 下 图 显示 的 是 对 蛋白 质 
2CRO (Cro Repressor) 的 Residue 41 的 二 面 角 估 计 值 随 着 迭代 进行 不 断 改 进 的 情况 。 对 这 
个 残 基 来 说 ， 通 过 局 部 结构 预测 步骤 产生 的 初 
螺旋 区 域 ， 一 个 位 于 PB 链 区 域 ， 然 而 这 两 个 团 和 真实 值 (g=1.44, w=-0.63) 都 有 较 大 差异 ; 
团 和 Alpha 螺旋 团 都 变 弱 ， 而 新 出 现 了 一 个 估计 值 集中 区 域 (中 心 
点 89=-1.82 ，W=-0.07 ) ， 再 经 过 第 二 步 提 代 之 后 ， 错 误 的 B 链 团 彻底 消失 ， 而 Alpha 螺 
旋 团 继续 变 弱 ; 经 过 第 三 步 迭 代 之 后 ，Alpha 螺旋 团 也 最 终 消 失 了 ， 新 出 现 的 团 逐 步 变 强 ， 
最 终 稳定 在 中 心 (9= 一 1.86 , =-0.13) 处 。 这 个 中 心 和 真实 值 比较 接近 ， 相 应 于 环 结构 。 


经 过 一 步 达 代 之 后 ，B 链 


始 估计 值 可 以 分 作 两 个 团 ， 一 个 位 于 Alpha 


(9) 二 面 角 初始 估计 值 


Protein Data Bank， 
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质数 据 上 


人 ) 第 一 步 迁 代 后 估计 值 
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(9) 第 二 步 迭 代 后 估计 值 (qd) 第 三 步 迭 代 后 估计 值 


图 1， Residue 41 的 二 面 角 估计 值 随 着 迭代 进行 不 断 改 进 


3. ”基于 位 置 特异 性 隐 马 尔 科 夫 模型 的 采样 算法 : 


和 FB5-HMM 等 已 有 算法 不 同 的 是 ， 我 们 设计 的 FALCON 是 一 种 位 置 特异 性 隐 马 尔 科 
夫 模 型 (Position-specific HMM) ， 即 每 个 位 置 上 的 隐 舍 结 点 数目 和 转移 概率 都 不 同 。 实 验 
结果 表明 : 这 种 位 置 特异 性 隐 马 尔 科 夫 模型 能 够 有 效 地 降低 搜索 空间 。 


我 们 已 经 初步 实现 了 上 述 模型 ， 开 发 了 软件 包 FALCON 的 初步 原型 。 实 验 结果 表明 ， 
即使 不 采用 人 迭代 技术 ， 该 算法 就 已 经 表现 出 对 ROSETTA 的 优势 。 


ROSETTA FALCON 


AE 
目标 蛋 日 厌 Best <6.0AC%) Best 26.0A(%) 

Protein A, 1FC2 2332 80.2 2.64 94.3 
Homeodomain, 1ENH 1.52 94.4 1.81 92.8 
Protein G, 2GB1 2 2 S33 2.18 93.4 
Cro repressor, 2CRO 2.56 70.4 2.48 75.8 
Protein L7/L12, 1CTF 1.44 14.3 0.56 25.6 
Calbidin, 41CB 3.87 19.9 2.93 46.3 


如 果 采 用 迭代 技术 ，FALCON 的 结果 会 大 大 改善 。 经 过 5 轮 迭 代 之 后 ， 对 于 这 6 个 测 
试 蛋 白质 用 例 而 言 ， 其 “好 结构 ”的 比例 都 可 以 逐步 提高 到 100% 。 


a 适 代 次 数 
目标 蛋白 质 】 7 3 4 5 6 

Protein A, 1FC2 94.3 98.5 100 100 100 100 
Homeodomain, lIENH 92.8 95.0 96.9 100 100 100 
Protein G, 2GB1 93.4 96.4 100 100 100 100 

Cro repressor, 2CRO 75.8 97.3 100 100 100 100 
Protein L7/L12, 1CTF 25.6 68.8 97.0 100 100 100 
Calbidin, 41CB 46.3 90.5 99.3 100 100 100 


在 CASP-8 比赛 中 ，FALCON 获得 了 折 闭 识别 困难 类 (Fold Recognition Hard) 的 第 三 
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图 2， 对 有 蛋白质 1CTF 的 预测 结果 ( 左 ) 与 其 天 然 结构 ( 右 ) ,误差 0.557 埃 (A) 。 
本 质 上 ，FALCON 是 将 传统 的 离散 域 优化 问题 转化 成 如 下 的 连续 域 优化 问题 : 


minE (gy ns Yn ) 
Sl. (Gi)~ ff 


其 中 pe[-xz,z],wi e[-z,z] 是 角度 变量 ， 以 表示 组 成 蛋白 质 的 第 i 个 氨基 酸 的 两 个 二 
面 角 。 确 定 出 所 有 位 置 氨基 酸 的 二 面 角 ， 就 能 够 精确 地 恢复 出 整体 空间 结构 。 /表示 
(psWi) 在 连续 空间 上 的 分 布 ， 目 标 函 数 E 表 示 蛋 白质 在 由 当前 二 面 角 确定 的 结构 构象 下 的 
能 量 。 整 个 优化 问题 目标 就 是 使 用 采样 技术 (sampling) 最 终 求解 上 述 优化 问题 。 


值得 指出 的 是 : 在 经 典 的 蒙特 卡 洛 或 局 部 搜索 方法 中 搜索 空间 不 变 ， 而 我 们 的 算法 能 
够 大 幅 地 缩小 搜索 空间 。 


我 们 的 体会 是 ， 对 于 优化 问题 ， 问 题 变换 是 改进 算法 的 重要 手段 ， 即 要 么 改变 搜索 空 
间 ， 要 么 改变 能 量 图 景 (energy landscape) 。 


虽然 CASP-8 比赛 结果 表明 FALCON 作为 一 个 原型 系统 取得 了 初步 成 功 ， 但 要 真正 达 
到 “无 颖 衔接 同 源 建 模 、 穿 线 法 和 第 一 性 技术 ”的 理想 目标 ， 还 有 很 多 理论 和 实践 上 的 困难 
需要 克服 。 我 们 依然 在 努力 。 
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